摘要。我们调查了大型语言模型(LLMS)的使用,以使神经机器人的代理人配备人类的社会和认知能力,以进行开放式的人类机器人对话和协作。我们引入了一种模块化和可扩展的方法,用于将LLM与物理机器人的感官感知和能力接地,并以系统集成的形式整合整个体系结构的多个深度学习模型。综合模型涵盖了各种功能,例如语音识别,语音发生,开放式对象检测,人姿势估计和手势检测,LLM充当基于中央文本的协调单元。定性和定量结果证明了LLM在以自然和社会方式提供对机器人的新兴认知和互动语言控制的巨大潜力。视频:https://youtu.be/a2wleuim3-s
![arxiv:2407.00518v1 [cs.ro] 2024年6月29日PDF文件第1页](/bimg/6/6b8ebb3a5ffdda2da17596ef5cedb8e7d2abea02.webp)
![arxiv:2407.00518v1 [cs.ro] 2024年6月29日PDF文件第2页](/bimg/1/11355cfb762205f05b60abb2e496ff6631bb5afa.webp)
![arxiv:2407.00518v1 [cs.ro] 2024年6月29日PDF文件第3页](/bimg/b/bd5afff91755308ccf4475cb421db169c1eb59b6.webp)
![arxiv:2407.00518v1 [cs.ro] 2024年6月29日PDF文件第4页](/bimg/c/c6c7f9a0afb33359f7663c99f2db884e6235f403.webp)
![arxiv:2407.00518v1 [cs.ro] 2024年6月29日PDF文件第5页](/bimg/4/4471aa0d22b3d570e18fd68b8184b06f5f3a378e.webp)
